Large Scale Knowledge Washing: 大规模语言模型知识清洗
日期: 2025-1-15
链接: ICLR 2025
标签: LLM
知识遗忘
模型编辑
隐私保护
机器学习安全
核心观点
提出LAW方法,通过约束优化直接修改Transformer MLP层权重,实现大规模敏感知识删除的同时保持模型推理能力。核心创新是将知识"清洗"重新定义为扰动目标知识输出而非简单替换。
技术架构
模型操作层面: - 目标:GPT-2/GPT-J的MLP前馈网络层 - 方法:多层权重联合更新,分散参数变化影响 - 定位:基于因果跟踪确定关键知识存储层
优化策略: - 双目标函数:最大化目标知识扰动 + 约束其他能力保持 - 初始化:使用MEMIT编辑结果作为warm start - 渐进消除:多轮迭代中动态排除已删除知识
实验设置
数据集: - zsRE: 19K问答对 - CounterFactual: 21K反事实知识 - Wiki-Latest: 332K Wikipedia三元组(自构建)
基线对比: - 模型编辑:MEMIT, ME-FT - 知识遗忘:FT-UL, WOH, SeUL
评估指标: - 知识遗忘:准确率下降、QA-F1分数 - 能力保持:Lambda/HellaSwag/ARC推理任务
关键结果
知识清洗效果: - Wiki-Latest数据集:准确率从100%降至19.3%(GPT2-XL) - 优于所有基线方法的遗忘彻底性
推理能力保持: - 推理任务平均准确率仅下降5-10% - 显著优于传统微调方法(常导致模型崩溃)
扩展性验证: - 成功处理30万+规模知识删除 - 计算效率远超重新训练方案
技术创新
范式转换: - 从确定性替换到随机化扰动 - 从闭式解到约束优化求解
工程优化: - MEMIT初始化策略解决局部最优 - 自适应β参数平衡清洗-保持权衡 - 渐进式处理提升大规模效率
应用价值
隐私保护: 移除训练数据中的个人敏感信息
版权合规: 删除受保护的文学作品、新闻内容
安全部署: 清理有害或不当知识内容
模型定制: 为特定场景移除不相关知识
技术局限
适用范围: 当前仅支持三元组格式的结构化知识 模型依赖: 主要在GPT-2/J上验证,对新架构适应性待确认 理论基础: 知识-推理解耦假设缺乏严格理论证明 安全保证: 清洗完整性难以绝对保证,可能存在间接访问路径
未来方向
- 扩展至非结构化文本知识处理
- 适配更多主流LLM架构(LLaMA等)
- 建立更严格的安全性验证框架
- 研究知识遗忘的长期稳定性